Một sinh viên năm ba người Trung Quốc đã huy động được 11 triệu đô la tiền tài trợ hạt giống, trở thành công ty khởi nghiệp dành cho sinh viên được tài trợ cao nhất tại Thung lũng Silicon cho đến nay.
VideoTutor, một sản phẩm đại diện giáo dục dành cho học sinh từ mẫu giáo đến lớp 12, tạo ra các video giảng dạy/giải thích được cá nhân hóa chỉ bằng một câu, hôm nay đã công bố rằng họ đã hoàn thành vòng gọi vốn hạt giống trị giá 11 triệu đô la. Vòng gọi vốn này do YZi Labs dẫn đầu, với sự tham gia của Baidu Ventures, Jinqiu Fund, Amino Capital, BridgeOne Capital và một số nhà đầu tư nổi tiếng khác.
Đây cũng là khoản đầu tư đầu tiên của YZi Labs vào một công ty sản phẩm AI.
Nhà sáng lập Kai Zhao cho biết VideoTutor đã nhận được sự công nhận và hỗ trợ từ các đội ngũ đầu tư của CZ và YZi Labs, và YZi Labs là đơn vị dẫn đầu vòng gọi vốn này. Họ đã nhận được hơn 10 bản đề xuất điều khoản (TS) và cuối cùng đã chọn ra một số ít trong số này. Phiên bản đầu tiên của sản phẩm đã được ra mắt vào ngày 14 tháng 5 (lần đầu tiên xuất hiện trên sàn giao dịch sản phẩm Founder Park), nhận được sự công nhận của thị trường và xác nhận của PMF. Trong vòng chưa đầy 5 tháng, họ đã hoàn thành vòng gọi vốn hạt giống trị giá 11 triệu đô la này. Theo Kai, lý do cốt lõi giúp họ có thể đảm bảo được nguồn tài trợ này là nhờ định hướng đúng đắn, "Nhóm Thiên tài Nhỏ" đã giải quyết được những khó khăn của học sinh từ mẫu giáo đến lớp 12 trong quá trình ôn thi đại học tại Mỹ bằng phương pháp học trực quan. "Lĩnh vực này rất phù hợp với những người trẻ tuổi, đặc biệt là những người có kỹ năng kỹ thuật vững chắc, khả năng lãnh đạo sáng suốt, kinh nghiệm dày dặn và khả năng thực thi nhanh chóng." Không chỉ riêng họ; Cursor, Mercor, Pika, GPTZero và các sinh viên khác tại Thung lũng Silicon đang định hình lại nhận thức của chúng ta về tinh thần kinh doanh AI với các sản phẩm AI được tài trợ kỷ lục của họ. Khởi nghiệp trong kỷ nguyên AI thực sự khác biệt. Chúng tôi đã trò chuyện với những người trẻ tại VideoTutor để tìm hiểu lý do tại sao họ nhận được vốn hạt giống, những thay đổi đang diễn ra trong các công ty khởi nghiệp ở Thung lũng Silicon và lý do tại sao họ lại muốn tuyển dụng nhân viên từ các công ty công nghệ lớn của Trung Quốc.
Khách mời phỏng vấn: CEO Kai Zhao, CTO James Zhan.
Phỏng vấn & Biên tập | Wan Hu
Sau đây là nội dung phỏng vấn, do Founder Park biên tập và biên soạn.

Founder Park: Rất nhiều tổ chức lạc quan về bạn. Theo bạn, điểm cốt lõi nào đã gây ấn tượng với họ?
Kai:Tôi nghĩ điều đầu tiên là hướng đi đúng đắn. Lĩnh vực giáo dục AI có tiềm năng và triển vọng rất lớn. Lĩnh vực giáo dục mà chúng tôi tham gia là kỳ thi tuyển sinh đại học Hoa Kỳ SAT và AP. Nhóm người dùng mục tiêu là học sinh trung học K12. Khoảng cách giữa chúng tôi và nhóm người dùng này rất nhỏ, về cơ bản không có khoảng cách thế hệ.
Chúng tôi đã trải qua toàn bộ chu trình chuẩn bị cho kỳ thi, hiểu rõ những điểm khó khăn của kỳ thi và quá trình chuẩn bị, và có thể tạo ra một sản phẩm thực sự giải quyết những điểm khó khăn này. Thứ hai, đội ngũ của chúng tôi rất xuất sắc. James đến từ Gemini và từng là kỹ sư AI cốt lõi và chuyên gia thuật toán tại Google. Cá nhân tôi có ba kinh nghiệm khởi nghiệp giáo dục, bắt đầu với phần mềm giáo dục trong năm thứ nhất đại học và tham gia sáng tạo MathGPTPro trong năm thứ hai, với các dự án được chọn cho Diễn đàn Đổi mới Kỳ diệu, v.v. Tôi có kinh nghiệm xây dựng thành công các sản phẩm giáo dục. Thứ ba, trong lĩnh vực giáo dục AI, cốt lõi là công cụ hoạt hình và chúng tôi là những nhà phát triển cốt lõi của VideoTutor, khiến chúng tôi trở thành đội ngũ có hiểu biết sâu sắc nhất về các công nghệ cốt lõi, có khả năng đạt được độ chính xác cao về kết xuất công cụ hoạt hình. Bản thân đội ngũ có nền tảng tiếp thị rất mạnh mẽ và biết cách quảng bá sản phẩm. VideoTutor hoàn toàn phù hợp với sự đồng thuận giữa các nhà đầu tư mạo hiểm chính thống của Hoa Kỳ: một "đội ngũ thiên tài trẻ". Điều này ám chỉ một lĩnh vực rất phù hợp với người trẻ, cùng với kỹ năng kỹ thuật vững chắc, một nhà sáng lập có tầm nhìn sâu sắc và kinh nghiệm, cùng khả năng triển khai nhanh chóng. Tôi tin rằng đây là lý do chung khiến tất cả các nhà đầu tư đều lạc quan về dự án này. VideoTutor đã được niêm yết trên NYSE tại Ngày hội Demo EASY Residency của YZi Labs.
Nhà sáng lập Park: Sản phẩm của các bạn hướng đến giải quyết vấn đề cốt lõi nào trong ngành giáo dục?
Kai:Hiện nay, các sản phẩm học tập trên thị trường có thể được phân loại thành hai loại: sản phẩm học tập chủ động và sản phẩm học tập thụ động. Các sản phẩm học tập thụ động, chẳng hạn như Gauth, Chegg và AnswersAi của ByteDance, bao gồm cái mà chúng tôi gọi là "hỗ trợ bài tập về nhà", với lộ trình học tập rất ngắn; học sinh chủ yếu trả tiền cho việc hỗ trợ bài tập về nhà.
Mặt khác, VideoTutor lại bao gồm kịch bản học tập chủ động. Chúng tôi không cần xem xét động lực học tập của học sinh vì các em phải học và thi cử, chẳng hạn như kỳ thi SAT và AP ở Hoa Kỳ. Trong kịch bản này, nhu cầu về hình ảnh hóa rất lớn; 80% nội dung trong kỳ thi SAT bao gồm các hàm số, phép tính và các kiến thức khác đòi hỏi phải hiển thị hình ảnh phức tạp. Công cụ hoạt hình của VideoTutor có thể giải quyết tình huống này rất tốt.

Hơn nữa, giá trị đơn hàng trung bình trong lĩnh vực này rất cao. Trung bình có 2,6 triệu học sinh ở Hoa Kỳ tham gia kỳ thi SAT mỗi năm, tạo ra nhu cầu rất lớn về các dịch vụ trả phí. Các khóa học SAT ngoại tuyến rất đắt đỏ, tính phí theo giờ chứ không phải theo gói, bắt đầu từ mức trung bình 150 đô la một giờ, với hầu hết có giá khoảng 230 đô la. Nhiều học sinh và phụ huynh trả phí cho các khóa học này. Tuy nhiên, VideoTutor có thể chuyển đổi hoặc thậm chí thay thế hiệu quả việc đào tạo giáo viên vì hiện tại, các video do AI tạo ra gần như không thể phân biệt được với nội dung đào tạo giáo viên. Điều này cho phép sinh viên có gia sư luyện thi được cá nhân hóa hỗ trợ bởi AI với chi phí thấp nhất có thể.
Người sáng lập Park: Điều gì đã thúc đẩy bạn tạo ra sản phẩm này?
Kai:Thực ra, trước chúng tôi, một nhóm tại Stanford đã thực hiện nó, có tên là Gatekeep AI.
Họ cũng muốn làm việc về học tập trực quan vào thời điểm đó. Tôi đã nhận ra tác động của hướng đi này. Trong các công ty khởi nghiệp trước đây của mình, các sản phẩm giáo dục mà chúng tôi tạo ra về cơ bản chỉ kết nối với API GPT, tương tự như sản phẩm bao bọc ChatGPT. Nhưng chúng tôi nhận thấy rằng những sản phẩm này, chỉ dựa trên câu hỏi và câu trả lời dạng văn bản, có một giới hạn. Chúng ta có thể thấy rằng hoạt động kinh doanh của các công ty như Chegg và Gauth đang suy giảm, với phần lớn các kịch bản của họ được thay thế bằng ChatGPT, bởi vì sinh viên có thể giải quyết nhiều bài tập về nhà bằng cách trả 20 đô la cho ChatGPT.Các sản phẩm dựa trên trình bao bọc API và tối ưu hóa đã đạt đến giới hạn của chúng.
Tuy nhiên, việc tạo hình ảnh đa phương thức có tiềm năng rất lớn vì có rất nhiều kịch bản học trực quan trong lĩnh vực thi tuyển sinh đại học ở Hoa Kỳ. Thật không may, Gatekeep đã có một khởi đầu tốt nhưng không tiếp tục vì ra mắt hơi sớm. Vào thời điểm đó, khả năng lập trình mô hình cơ bản vẫn chưa hoàn thiện và GPT-4 vẫn chưa được phát hành. Ngoài ra, các công cụ hoạt hình toán học liên quan đến kết xuất và thuật toán, mà chúng đã không vượt qua được. Nhưng nhóm của chúng tôi đã nắm vững tất cả các phát triển cốt lõi của công cụ hoạt hình, giải quyết vấn đề này và làm cho việc kết xuất video trở nên rất chính xác.
PMF: Người dùng sẵn sàng chi trả mạnh mẽNgười sáng lập Park: Sau khi sản phẩm của bạn ra mắt, bạn cũng đã đạt được sự hợp tác với một số trường học. Theo bạn, khi nào hoặc tính năng nào khiến bạn cảm thấy "Tôi đã làm đúng với sản phẩm này, tôi đã tìm đúng điểm yếu" và cảm thấy mình đã tìm thấy PMF?
Kai:Có thể nói từ ba khía cạnh.
Thứ nhất, xét về mặt doanh thu, VideoTutor đã nhận được yêu cầu API từ 1.000 công ty cho đến nay, bao gồm tất cả các tổ chức giáo dục lớn nổi tiếng tại Hoa Kỳ, và thậm chí cả một số tổ chức trong nước. Ngoài ra, nhiều trường học muốn mua dịch vụ. Ý định của người dùng cuối thì trực tiếp hơn. Một phụ huynh, đồng thời là một nhà đầu tư, đã dùng thử sản phẩm và giới thiệu cho tất cả bạn bè và gia đình dùng thử, và mọi người đều sẵn sàng trả tiền. Sau đó, bằng cách nào đó, anh ấy có được số điện thoại của tôi và nhắn tin cho tôi muốn đầu tư vào chúng tôi. Người dùng cuối có nhu cầu rất cao về việc chi trả. Thứ hai, xét về nhu cầu của người dùng, tại sao việc học kèm một kèm một ngoại tuyến lại rất cần thiết ở Hoa Kỳ? Bởi vì phụ huynh cảm thấy việc dạy kèm một kèm một hiệu quả và sẵn sàng chi trả cho việc này. Giờ đây, công nghệ AI đa phương thức có thể đạt được hiệu quả dạy kèm một kèm một giống như con người, trả lời trực tiếp các câu hỏi. Hơn nữa, các bài học video do gia sư trực tuyến một kèm một tại Hoa Kỳ ghi lại hầu như không thể phân biệt được với các video do AI tạo ra. Đây chính là điều tôi muốn nói khi nói đến "sự dịch chuyển nhu cầu". Học sinh trả rất nhiều tiền cho các khóa học được ghi hình sẵn, không khác gì so với các khóa học do AI của tôi tạo ra. Vậy tại sao không sử dụng AI? Nó rẻ hơn và hiệu quả giảng dạy tốt hơn. Chúng tôi đã nhận được rất nhiều phản hồi rất tích cực từ học sinh, và nhiều giáo viên cũng sẵn sàng chia sẻ về sản phẩm này. Tỷ lệ hoàn thành và thời gian sử dụng trong giai đoạn đầu đặc biệt tốt. 200 người dùng hạt giống mà chúng tôi đã chọn hiện nay đều là từ số lượng người dùng ban đầu của chúng tôi. Điểm thứ ba là về hương vị và cảm nhận của sản phẩm. Khi bạn tiếp tục đi ngược lại từ sự tiến triển của toàn bộ ngành giáo dục, đến nhu cầu cốt lõi của học sinh và phụ huynh sẵn sàng chi trả, rồi đến sự phát triển của chính sản phẩm, toàn bộ logic là một vòng tròn khép kín. Vì vậy, từ ba chiều hướng này, bạn cảm thấy PMF là đủ. Điểm quan trọng nhất là mức độ sẵn sàng chi trả cực kỳ cao.

Chúng tôi đã thiết lập quan hệ đối tác với FIZZ
Nhà sáng lập Park: Nhiều người dùng sẵn sàng chi trả một cách chủ động, và một số người thậm chí đã liên hệ với anh để bày tỏ mong muốn đầu tư.
Kai:Đúng vậy. Trong lĩnh vực SAT và AP, mức độ sẵn sàng chi trả vốn dĩ rất cao. Giá trị đơn hàng trung bình trong lĩnh vực này bắt đầu từ 100 đến 200 đô la, và các lớp học ngoại tuyến thậm chí còn đắt hơn, có thể lên đến 800 đô la. Có 2,6 triệu học sinh tại Hoa Kỳ tham gia kỳ thi SAT, và 37% trong số họ sẵn sàng chi trả một cách chủ động. Đây là một thị trường có nhu cầu và mong muốn rất lớn. Sản phẩm của chúng tôi có thể đạt được sự chuyển giao nhu cầu rất tốt.
Founder Park: Trong lĩnh vực SAT, đối với những người làm bài thi, khi được lựa chọn giữa giáo viên là con người và AI, liệu họ có tin tưởng AI không?
Founder Park:
Trong lĩnh vực SAT, giữa giáo viên là con người và AI, liệu họ có tin tưởng AI không?
Kai:
Founder Park:
Founder Park:
Founder Park:
Founder Park:
Founder Park:
Founder Park:
Founder Park:
Founder Park:
Founder Park:
Founder Park:
Founder Park Park:
Người sáng lập Park:
... Kai: Hiện tại, AI trả lời các câu hỏi ở cấp độ kỳ thi SAT và AP của Hoa Kỳ với lỗi thực tế tối thiểu. Trong trường hợp này, tại sao nó tốt hơn một gia sư truyền thống? Thứ nhất, nó rẻ hơn; thứ hai, học sinh có thể hỏi bất kỳ câu hỏi nào mà không lo giáo viên khó chịu hoặc mất kiên nhẫn với những câu hỏi ngớ ngẩn. Họ có thể học mọi lúc, mọi nơi, 24/7. Hơn nữa, thị trường này có thể chuyển nhượng. Sau khi hoàn thành thị trường Hoa Kỳ, chúng tôi có thể mở rộng sang các kỳ thi A-Level ở Canada và Vương quốc Anh, v.v., nơi có nhu cầu rất lớn về các dịch vụ trả phí. Người sáng lập Park: Kế hoạch hiện tại của bạn liên quan đến các dịch vụ trả phí là gì? Kai: Chúng tôi cung cấp các tùy chọn đăng ký hàng tháng và trả tiền theo kết quả. Tôi nghĩ AI đã có khả năng trả tiền theo kết quả. Chúng tôi có thể tung ra một gói dịch vụ mà, ví dụ, bạn trả 799 đô la và chúng tôi đảm bảo con bạn đạt điểm tuyệt đối trong kỳ thi SAT Math.
Nhà sáng lập Park: Nhưng việc trả lương dựa trên kết quả thi chẳng phải cũng phụ thuộc vào sự chủ động của học sinh sao?
Kai:Điều này có thể không khả thi với kỳ thi tuyển sinh đại học Trung Quốc (Gaokao) vì nó bao gồm hàng ngàn điểm thi. Nhưng kỳ thi SAT của Mỹ chỉ có 62 điểm thi, 50 trong số đó là điểm chuẩn và hầu hết học sinh đều không gặp vấn đề gì. 12 điểm còn lại nhìn chung cũng đã được nắm vững. Trừ khi học sinh thực sự có vấn đề về logic, nếu không thì hầu như không có khả năng các em sẽ không học được điều đó. Hơn nữa, hiệu quả nâng cao hiệu quả của AI là rất đáng kể.
Thực tế, nhiều gia sư trực tuyến ở Mỹ cũng cung cấp dịch vụ này. Bạn trả cho gia sư 1.800 đô la, và tỷ lệ thành công của gia sư về cơ bản là 100% vì điểm thi SAT là cố định. Miễn là chỉ số IQ của học sinh ở mức bình thường, về cơ bản không có vấn đề gì. Nhưng Gaokao (kỳ thi tuyển sinh đại học Trung Quốc) thì khác; bạn không thể cải thiện điểm Gaokao của mình trong thời gian ngắn. Hơn nữa, Gaokao ở Trung Quốc yêu cầu khoảng cách điểm số khá lớn, điều này đặt ra những thách thức, nhưng kỳ thi SAT của Mỹ không có khó khăn tuyệt đối vì nó kiểm tra mức độ nắm vững kiến thức của bạn.
Trả tiền theo kết quả là một mô hình mà các gia sư đã sử dụng, vì vậy nó có điều kiện tiên quyết này.
Người sáng lập Park: Chi phí mô hình có phải là mối quan tâm trong giá của các bạn không? Tỷ lệ này có cao không?
Kai:Giá trị đơn hàng trung bình của chúng tôi trong lĩnh vực này rất cao, bắt đầu từ 69 đô la mỗi tháng. Chi phí mô hình hiện rất rẻ, nên không thành vấn đề.
Ngành giáo dục không giống như lĩnh vực lập trình, nơi mọi người đều cạnh tranh về giá vì lập trình đòi hỏi phải hỗ trợ các ngữ cảnh rất dài.
Người sáng lập Park: Tôi nhớ lần trước anh đã nói rằng nguyên mẫu đầu tiên của anh chỉ mất khoảng hai tháng. Anh đã xem xét toàn bộ chu trình phát triển như thế nào, chẳng hạn như phân công lao động, quyết định tính năng nào nên đưa vào và tính năng nào không?
Kai:Toàn bộ nhóm chúng tôi đều nhất trí rằng các lần lặp lại phải nhanh, vì chỉ những lần lặp lại nhanh mới có thể nhanh chóng nhận được phản hồi từ những người dùng đầu tiên.
Sau khi phiên bản đầu tiên được phát hành trên Twitter, nó đã gây ra một làn sóng lớn và thu hút một lượng lớn người dùng. Tuy nhiên, nhiều người dùng trong số này là lập trình viên, nhà đầu tư hoặc những người đam mê công nghệ—chúng ta có thể gọi chung họ là "những người dùng đầu tiên". Ở giai đoạn đó, phản hồi từ họ còn rải rác và không mấy giá trị.
Chúng tôi vẫn cần sàng lọc qua cơ sở người dùng rộng lớn này để xác định những người dùng hạt giống cốt lõi thực sự—học sinh trung học chất lượng cao—và sau đó thu thập phản hồi hữu ích thông qua tham vấn. Phản hồi cốt lõi mà chúng tôi nhận được là độ chính xác kết xuất video phải đạt 100%; đây là khía cạnh quan trọng nhất để tối ưu hóa. Các tính năng như tính thẩm mỹ của giao diện người dùng hoặc hỗ trợ các lựa chọn âm thanh-hình ảnh TTS khác nhau đã bị loại bỏ. Quay lại cốt lõi của sản phẩm: chúng tôi đang nghiên cứu việc học kiến thức cho các tình huống liên quan đến khoa học, vì vậy độ chính xác của việc kết xuất đồ họa là tối quan trọng. Nhà sáng lập Park: Thời lượng sản xuất được quyết định như thế nào vào thời điểm đó?
Kai: Vào thời điểm đó, thời lượng tối đa là khoảng 6 phút. Cân nhắc chính vào thời điểm đó là việc giải thích các câu hỏi và điểm kiến thức thông thường không nên vượt quá 6 phút. Tuy nhiên, trong phản hồi sau đó, chúng tôi nhận thấy một số học sinh có năng lực học tập kém hơn mong muốn nội dung được giải thích chậm hơn và sâu hơn. Chúng tôi nhận ra rằng thời lượng không nên bị giới hạn mà nên phụ thuộc nhiều hơn vào khả năng học tập của người dùng.
Người sáng lập Park: Thời lượng dài nhất hiện nay là bao lâu?
Kai:Thời lượng dài nhất nên trong vòng một giờ, cho phép đặt câu hỏi liên tục. Nó tạo dữ liệu theo thời gian thực trong quá trình tương tác, nhưng tính năng này mới được bổ sung gần đây; Nó không có trong phiên bản đầu tiên.
Người sáng lập Park: Có tính năng nào ban đầu bạn cân nhắc nhưng sau đó thấy ít quan trọng hơn và do đó không triển khai không?
Kai:Ví dụ: Ứng dụng.
Ví dụ: Ứng dụng.
Kai:
Ví dụ: Ứng dụng.
Kai:
Ví dụ: Ứng dụng.
Founder Park: Liệu K12 có phải là nhóm người dùng cốt lõi của bạn trong ít nhất một năm tới không?
Kai:Nó sẽ là một chỉ số cốt lõi trong hai năm tới.
Founder Park: Bạn có thể giới thiệu ngắn gọn về triển khai kỹ thuật hiện tại của mình không? VideoTutor thực sự hoạt động tốt hơn nhiều so với các mô hình tạo video khác trong việc tạo khóa học và biểu đồ. Ngay cả khi nhiều mô hình không thể tạo văn bản chính xác, công nghệ của bạn vẫn tốt một cách đáng ngạc nhiên.
James:Các video chúng tôi tạo ra có cả văn bản và hình ảnh. Quy trình sản xuất chung là: một mô hình ngôn ngữ lớn tạo ra văn bản và hướng dẫn hoạt hình tương ứng, sau đó các hướng dẫn hoạt hình được kết xuất bởi công cụ hoạt hình của chúng tôi và cuối cùng được trình bày trên video.
Phần văn bản tương đối đơn giản; Chúng tôi có mô hình ngôn ngữ lớn tạo ra văn bản, sau đó hiển thị trực tiếp.
Tuy nhiên, phần hoạt ảnh được tạo ra bởi công cụ hiển thị hoạt ảnh toán học của riêng chúng tôi. Ưu điểm của nó nằm ở độ chính xác cực cao của việc hiển thị trục tọa độ, hình dạng hình học và các nội dung khác, đây chính xác là công nghệ cốt lõi của chúng tôi. Mô hình ngôn ngữ lớn hiện tại chỉ xuất ra văn bản. Tác nhân của chúng tôi giống như đưa cho mô hình ngôn ngữ lớn một tờ giấy và một cây bút, cho phép nó vẽ hoạt ảnh giảng dạy phù hợp mà nó hình dung. Phần được vẽ hoàn toàn là công nghệ của chúng tôi. Nhà sáng lập Park: Quá trình tổng hợp cuối cùng của toàn bộ video, bao gồm cả âm thanh và hình ảnh, được xử lý như thế nào? James: Ban đầu, người dùng sẽ đưa ra một lời nhắc, chẳng hạn như "Định lý Pythagore là gì?". Bước đầu tiên là để mô hình ngôn ngữ lớn suy luận về tất cả các kịch bản, thường chỉ định 3 đến 5 kịch bản, tùy thuộc vào độ khó của câu hỏi. Sau đó, mô hình sẽ tạo ra một kịch bản thô cho mỗi kịch bản. Tiếp theo, dựa trên kịch bản cho mỗi kịch bản, một suy luận thứ hai được thực hiện để tạo ra văn bản trong kịch bản, hình ảnh tương ứng và văn bản giọng nói của con người. Sau đó, giọng nói của người dùng được tổng hợp bằng TTS. Cuối cùng, chúng tôi ghép tất cả các cảnh lại với nhau để tạo thành một video hoàn chỉnh. Nhà sáng lập Park: Tôi hiểu phiên bản đầu tiên trông như thế này. Giờ chúng tôi đã thêm một quy trình tương tác, liệu quy trình tạo video có thay đổi không?
James:Thực sự đã có những thay đổi. Để đảm bảo người dùng nhìn thấy nội dung nhanh nhất có thể, giờ đây chúng tôi tạo cảnh đầu tiên trước, cho phép người dùng xem cảnh đó, trong khi các cảnh tiếp theo tiếp tục hiển thị ở chế độ nền. Khi người dùng đặt câu hỏi, chúng tôi chuyển giọng nói của họ thành văn bản, sau đó chuyển văn bản này cùng với nội dung từ tất cả các cảnh trước đó đến mô hình ngôn ngữ lớn để suy luận, cho phép nó lên kế hoạch cho cảnh giảng dạy tiếp theo. Quy trình hiển thị cho các cảnh tiếp theo giống như trước đây.
Người sáng lập Park: Nếu người dùng có câu hỏi sau khi nghe trong một phút, họ sẽ hỏi trực tiếp. Sau khi nhận được câu hỏi, bạn trả lại câu hỏi của người dùng cùng với nội dung đã đề cập trước đó cho mô hình để xử lý. Trong quá trình này, sau khi người dùng đặt câu hỏi, hoạt ảnh sẽ tiếp tục phát hay dừng lại?
James:Độ trễ của chúng tôi hiện đã giảm từ 20-30 giây ban đầu xuống còn dưới 5 giây. Về mặt tương tác, chúng tôi sẽ triển khai một số chuyển tiếp để người dùng không quá tập trung vào 5 giây đó; toàn bộ quá trình sẽ mượt mà hơn.
James: Trong vòng 4-5 giây, anh ấy sẽ thấy một bài thuyết trình hoàn toàn mới dựa trên câu hỏi của mình. Thiết kế hiện tại là giáo viên AI sẽ nói, "Ừm, để tôi nghĩ xem," rồi xóa bảng đen, giống như một giáo viên thực sự. Nếu bạn cảm thấy có vấn đề với lời giải thích, tôi sẽ xóa nó và viết lại cho bạn; quá trình này có vẻ tự nhiên hơn. Hơn nữa, chúng tôi không chỉ thụ động chờ đợi câu hỏi của người dùng; chúng tôi còn tiến hành các bài kiểm tra giữa chừng. Chúng tôi sẽ suy luận dựa trên phản hồi của bài kiểm tra và câu hỏi của người dùng. Và việc truy cập micrô không hoàn toàn miễn phí; người dùng cần chủ động bật micrô của họ—có một hành động bật/tắt. Nhà sáng lập Park: Vì vậy, dựa trên cơ chế này, bài thuyết trình dài nhất có thể kéo dài khoảng một giờ. James: Chính xác là không có giới hạn. Nếu anh ấy cứ hỏi, anh ấy cứ hỏi. Kai: Vâng, không có giới hạn nào được đặt ra. Cách tiếp cận của VideoTutor trong lĩnh vực này được thúc đẩy bởi những tiến bộ trong AI đa phương thức. Chúng tôi không tạo ra nhu cầu, mà là đáp ứng tốt hơn các nhu cầu hiện có. Hãy xem xét hình thức giáo dục trực tiếp: tại sao phụ huynh Mỹ lại sẵn sàng chi trả mức giá cao như vậy? Bởi vì ngành giáo dục Hoa Kỳ chủ yếu cung cấp các lớp học một kèm một, bắt đầu từ 100 đô la một giờ. Điều này là do giáo viên trực tiếp có thể cung cấp các câu hỏi hướng dẫn; họ có thể quan sát những điểm con bạn gặp khó khăn và sau đó đặt thêm câu hỏi. VideoTutor nỗ lực mang lại trải nghiệm học tập như một giáo viên, cho phép tương tác và học tập theo thời gian thực cho mọi trẻ em.
Founder Park: Học sinh có bắt buộc phải bật camera trong giờ học không?
Kai:Không hẳn. Việc học sinh có bật camera hay không chủ yếu phụ thuộc vào luật riêng tư của Hoa Kỳ. Chúng tôi không thiết kế tính năng bắt buộc học sinh phải bật camera; điều này phụ thuộc vào sở thích của học sinh. Tương tác chính là thông qua câu hỏi và phản hồi bằng giọng nói.
Founder Park: Về mặt kỹ thuật, bạn có sử dụng chiến lược kết hợp các mô hình nhỏ với các mô hình đám mây lớn hay phương pháp nào khác không?
Kai: Đó là sự kết hợp. Chúng tôi có một tập dữ liệu nội bộ với hơn 100.000 điểm dữ liệu video. Những điểm tốt hơn từ tập dữ liệu này được chú thích thủ công và sau đó được sử dụng để đào tạo và tinh chỉnh các mô hình. Ví dụ: hiện tại chúng tôi có hơn 8.000 điểm dữ liệu đào tạo mẫu SAT. Những mô hình nhỏ được tinh chỉnh này được sử dụng kết hợp với các mô hình thương mại đa năng trên nền tảng đám mây, chẳng hạn như Claude và Gemini.
Kai:
Founder Park: Việc sử dụng Claude, Gemini hay GPT có ảnh hưởng đến hiệu suất cốt lõi của sản phẩm không? Kai: Chúng tôi chủ yếu tập trung vào miền K12 và mức độ mô hình cơ bản của chúng tôi đã đủ. Tuy nhiên, để đảm bảo độ chính xác 100%, chúng tôi gọi hai mô hình để xác minh đồng thời. Nếu câu trả lời từ hai mô hình khớp nhau thì về cơ bản không có lỗi. Đối với việc tạo mã, chúng tôi chủ yếu sử dụng Claude vì khả năng tạo mã của nó tốt hơn. Founder Park: Những điểm nghẽn kỹ thuật hiện tại trong sản phẩm là gì? Đó là khả năng mô hình hay khả năng tạo mã? Kai: Khả năng mô hình là một khía cạnh. Một khía cạnh khác là kết xuất; hiện chúng tôi đã đạt được thời gian kết xuất dưới 5 giây và với việc triển khai GPU ngày càng tăng, thời gian này có thể còn nhanh hơn nữa. Một khía cạnh khác là khả năng bộ nhớ dài hạn. Chúng tôi cần thu thập dữ liệu hành vi học tập dài hạn từ học sinh để biết những kiến thức nào các em chưa hiểu. Ví dụ, nếu học sinh quên một kiến thức đã học một tháng trước, chúng tôi có thể nhắc lại cho các em. James: Thực ra, chúng tôi đã nỗ lực rất nhiều vào việc rút ngắn thời gian kết xuất, liên tục tạo ra những đột phá về công nghệ, từ 2 phút ban đầu xuống còn 1 phút, và giờ đây xuống còn dưới 10 giây. Mục tiêu cuối cùng của chúng tôi là đạt được tốc độ kết xuất gần như không có độ trễ, để khi người dùng đặt câu hỏi, kết quả sẽ được hiển thị ngay lập tức sau khi quá trình suy luận hoàn tất. Đây là một thách thức mà nhóm chúng tôi hiện đang giải quyết, nhưng chúng tôi đã tìm ra một hướng đi mới.
Founder Park: Làm thế nào để các bạn đo lường các số liệu cốt lõi của sản phẩm ở giai đoạn này? Làm thế nào để các bạn xác định xem một video có hữu ích cho người dùng hay không?
Kai:Số liệu quan trọng nhất là bài kiểm tra. Trong phiên bản mới, sau khi xem video, có một bài kiểm tra ở cuối. Nếu bạn trả lời đúng, điều đó chứng tỏ bạn đã hiểu; nếu bạn không trả lời đúng, điều đó chứng tỏ rằng bài học không được giải thích rõ ràng.
Hiệu quả học tập không thể chỉ được đánh giá bằng tỷ lệ hoàn thành. Một số học sinh có thể hiểu được giữa chừng. Chúng tôi cho họ làm bài kiểm tra giữa chừng; nếu họ đạt, họ không cần phải xem phần còn lại. Số liệu cốt lõi của sản phẩm của chúng tôi là có bao nhiêu học sinh cải thiện được điểm số của mình.
Founder Park: Nhưng bài kiểm tra cuối kỳ được hoàn thành trong một kịch bản khác. Làm sao bạn xác định được họ đã đậu hay chưa?
Founder Park: Nhưng vì kỳ thi cuối kỳ được tổ chức trong một bối cảnh khác, làm sao bạn xác định được họ đã đậu hay chưa?
Kai:
Founder Park:
Founder Park:
Founder Park:
Founder Park:
... Kai: Điều này đưa chúng ta đến với văn hóa sản phẩm ở Hoa Kỳ, nơi người dùng tự nguyện chia sẻ những trải nghiệm tích cực của họ sau khi sử dụng một sản phẩm và đạt được kết quả tốt. Nhiều sinh viên đã sử dụng VideoTutor và tham gia kỳ thi SAT đã chủ động chia sẻ kinh nghiệm và điểm số của họ. Chúng tôi cũng biến họ thành đại sứ của trường để phổ biến thông tin này đến các nơi khác. Chúng tôi có 20 học sinh trung học làm đại sứ cho trường. Thực tế, bạn thấy đấy, Mercor đã rất thành công trong những ngày đầu, sử dụng mô hình "câu chuyện thành công của người dùng" điển hình. Mercor đã giúp nhiều lập trình viên Ấn Độ tìm việc làm tại Mỹ, sau đó họ sẽ liên hệ với những người dùng này, tạo câu chuyện người dùng cho họ và giải thích cách họ tìm được việc làm khi sử dụng Mercor. Điều này đã tạo ra hiệu ứng tiếp thị truyền miệng tuyệt vời. VideoTutor hoạt động theo cùng một nguyên tắc; chúng tôi muốn nhiều học sinh đạt được kết quả xuất sắc sau khi sử dụng sản phẩm, và sau đó chia sẻ trải nghiệm của những học sinh này dưới dạng câu chuyện người dùng. Nhà sáng lập Park: Học sinh chủ yếu chia sẻ trải nghiệm của mình ở đâu? Kai: Học sinh chủ yếu sử dụng TikTok, còn phụ huynh thì sử dụng các nhóm trên Facebook. Nhà sáng lập Park: Nếu nhìn vào khung thời gian sáu tháng hoặc một năm, kế hoạch phát triển sản phẩm của các bạn là gì? Kai: Về cơ bản, tôi nghĩ VideoTutor vẫn là một sản phẩm dành cho người dùng cuối (C-end user), và hiệu ứng truyền miệng rất quan trọng. Nhiều ứng dụng AI thành công dựa trên hiệu ứng truyền miệng từ những người dùng đầu tiên; ví dụ, các nhà thiết kế sử dụng nó và thấy nó tốt, vì vậy nó được lan truyền. Đối với chúng tôi, thước đo cốt lõi là số lượng thí sinh thi SAT sử dụng sản phẩm và đạt điểm cao, sau đó lan tỏa đến các em học sinh và phụ huynh khác. Phụ huynh chủ yếu sử dụng Facebook và Instagram, còn học sinh sử dụng TikTok; chúng tôi lan tỏa sản phẩm trên các nền tảng này. Khi loại hình truyền miệng dựa trên sự đồng thuận này được hình thành, giáo viên sẽ tự nhiên biết đến. Lý do nhiều trường học biết đến chúng tôi từ sớm là vì nhiều giáo viên đã sử dụng, thấy sản phẩm tốt và giới thiệu cho quản lý mua sắm của trường. Do đó, yếu tố quan trọng nhất là tiếp thị truyền miệng từ người dùng cuối; chỉ số chính là số lượng học sinh cải thiện điểm số sau khi sử dụng sản phẩm.
Founder Park: Trạng thái chung và mốc thời gian phát hành của phiên bản mới là gì?
Kai:Chúng tôi hy vọng sẽ chính thức phát hành công khai trong vòng hai tháng tới. Khi đó, học sinh sẽ có thể nhận được câu trả lời cho các câu hỏi của mình với độ trễ rất thấp và đồ họa cho các tình huống khoa học sẽ chính xác 100%. Tất nhiên, chúng tôi sẽ không đề cập đến các tình huống thi đấu hoặc kiến thức đại học phức tạp như đại số tuyến tính trong thời gian này; chúng tôi sẽ tập trung nhiều hơn vào lĩnh vực K-12.
Founder Park: Những rào cản hoặc hạn chế hiện tại của VideoTutor là gì?
Kai:Tôi nghĩ có một vài điểm. Đầu tiên là bánh đà dữ liệu. Đằng sau mỗi video là mã. Dữ liệu video tốt do người dùng tạo ra có thể được chú thích lại và sử dụng để đào tạo lại và tinh chỉnh mô hình. Càng nhiều dữ liệu, chất lượng video càng tốt.
Kai: Một yếu tố quan trọng khác là dữ liệu về hành vi học tập. Việc biết được điểm yếu về kiến thức của từng học sinh cho phép chúng tôi xây dựng một bánh đà dữ liệu; càng nhiều người sử dụng, sản phẩm càng hiểu rõ hơn về học sinh. Thứ hai, có lợi thế công nghệ hàng đầu, chẳng hạn như thuật toán công cụ hoạt hình. Mặc dù bản thân thuật toán không phải là lợi thế cốt lõi, nhưng khi chúng tôi lặp lại nhanh chóng và tích lũy nhiều dữ liệu hơn, lợi thế này trở nên rõ rệt hơn. Thứ ba, có thương hiệu. VideoTutor đã trở thành một thương hiệu hàng đầu về giáo dục AI trong số các bậc phụ huynh ở Bắc Mỹ và niềm tin của phụ huynh là một rào cản vô hình. Nhà sáng lập Park: Trong vòng ba đến năm năm tới, bạn mong đợi VideoTutor cuối cùng sẽ trở thành loại sản phẩm nào? Kai: Chúng tôi hy vọng rằng trong tương lai, VideoTutor có thể trở thành giáo viên AI cho tất cả mọi người học các môn STEM. Chúng tôi chỉ tập trung vào STEM. Tôi nghĩ rằng nó sẽ vượt qua Duolingo trong tương lai. Duolingo là một sản phẩm học ngôn ngữ đẳng cấp thế giới, nhưng trong lĩnh vực STEM, trước đây chưa từng có sản phẩm đẳng cấp thế giới nào vì STEM đòi hỏi rất nhiều về kết xuất đồ họa. Công nghệ mô hình cơ bản hiện đã sẵn sàng, vì vậy tôi nghĩ rằng "Duolingo" tiếp theo sẽ xuất hiện trong lĩnh vực STEM. Tuyển dụng, đặc biệt là tìm kiếm nhân viên từ các công ty lớn trong nước. Nhà sáng lập Park: Bạn đã có một số kinh nghiệm khởi nghiệp trước đây, chúng như thế nào? Kai: Tôi là sinh viên năm ba đại học. Vào năm nhất, tôi đã bắt đầu một sản phẩm giáo dục với James và nhận được 200.000 đô la đầu tư thiên thần. Mặc dù thất bại, tôi đã học được một bài học quý giá: bạn không thể bị cuốn vào sự cạnh tranh đồng nhất. Ứng dụng của chúng tôi đã có nhiều sản phẩm tương tự trên thị trường và chúng tôi buộc phải tham gia vào cuộc cạnh tranh giành người dùng giai đoạn đầu, khiến việc kiếm tiền trở nên khó khăn.
Trong lần khởi nghiệp thứ hai, tôi tham gia một nhóm khác, MathGPTPro, với tư cách là người đồng sáng lập và ở lại đó vài tháng. Trong thời gian đó, tôi đã học cách phân tích số liệu sản phẩm, cách xây dựng sản phẩm và cách mở rộng cơ sở người dùng. Cũng chính lúc đó, tôi đi đến kết luận: các sản phẩm giáo dục dạng văn bản, hướng đến câu trả lời đã đạt đến giới hạn. Bởi vì nó không khác gì ChatGPT, và các ngân hàng câu hỏi kiến thức có cấu trúc mà các công ty như Zuoyebang đã đầu tư mạnh vào đã bị thay thế bằng khả năng chỉnh sửa của các mô hình lớn. Vì vậy, đối với công ty khởi nghiệp thứ ba của mình, tôi biết rằng trực quan hóa là một xu hướng tất yếu.

Một bức ảnh của Zhao Kai với Sam Altman tại Đại học Harvard
Người sáng lập Park: Bên cạnh việc giúp bạn nhận ra những hạn chế của các sản phẩm dạng văn bản, hai kinh nghiệm trước đây đã giúp bạn như thế nào trong công việc hiện tại của mình tại VideoTutor, về mặt nhóm hoặc các khía cạnh khác?
Kai:Rất hữu ích. Đầu tiên, nó giúp tôi đánh giá tốt hơn hướng đi và tiềm năng tương lai của một sản phẩm. Tôi phân tích lưu lượng truy cập trang web và doanh thu của đối thủ cạnh tranh để xác định hướng phát triển tổng thể của sản phẩm. Thứ hai, về mặt phát triển sản phẩm, nó cho phép tôi đánh giá tốt hơn tốc độ phát triển sản phẩm, bao gồm thiết kế sản phẩm, tích hợp front-end và back-end, cũng như các số liệu cần theo dõi. Thứ ba, nó nâng cao khả năng quản lý nhóm và văn hóa tổ chức. Tôi đã thiết lập một hệ thống quản lý toàn diện hơn, bao gồm phân công lao động, khen thưởng và phát hành quyền chọn cổ phiếu cho từng thành viên trong nhóm. Tôi cũng học cách huy động vốn. Chúng tôi đã hoàn thành vòng gọi vốn 10 triệu đô la này trong vòng 20 ngày. Nhà sáng lập Park: Hiện tại nhóm của bạn có bao nhiêu người? Kai: Sáu người, tất cả chúng tôi đều sống cùng nhau. Nhà sáng lập Park: Ban đầu nhóm được xây dựng như thế nào? Kai: James và tôi đã khởi nghiệp hai doanh nghiệp. Cả hai chúng tôi đều tốt nghiệp cùng một trường đại học và chúng tôi đã cùng nhau tạo ra một ứng dụng vào năm thứ nhất. Vào năm thứ hai, tôi đã khởi nghiệp với hai người khác và tất cả chúng tôi đều biết nhau. Khi nhận ra rằng công nghệ này có thể mang lại tầm nhìn sản phẩm rất lớn, chúng tôi đã liên hệ với nhau để thành lập một nhóm phát triển sản phẩm này. Tất cả chúng tôi đều là cựu sinh viên, bao gồm một đối tác khác trong nhóm, Nick, cũng là bạn cùng phòng đại học của tôi.
Founder Park: Hiện tại, anh đang có kế hoạch mở rộng tuyển dụng. Anh đang tìm kiếm những ứng viên nào?
Kai:Chúng tôi chủ yếu tuyển dụng cho các vị trí back-end, front-end, mô hình ngôn ngữ lớn và UI/UX, ưu tiên ứng viên có kinh nghiệm. Hiện tại, chúng tôi đã vượt qua giai đoạn thử nghiệm và bước vào giai đoạn xây dựng sản phẩm nhanh chóng, đòi hỏi những cá nhân giàu kinh nghiệm để giúp chúng tôi phát triển.
Founder Park: Chúng tôi cần các kỹ sư, quản lý sản phẩm và quản lý tăng trưởng giàu kinh nghiệm để phát triển sản phẩm từ 1 lên 10, hoặc thậm chí từ 10 lên 100.
Kai:Vâng, đó chính là giai đoạn đó. Chúng tôi dự kiến sẽ mở rộng đội ngũ lên 9 đến 10 người, tập trung chủ yếu vào việc tuyển dụng kỹ sư.
Việc tuyển dụng này có thể sẽ diễn ra tại Trung Quốc, vì vậy sẽ kết hợp giữa tuyển dụng trực tiếp và từ xa.
Nhà sáng lập Park: Bạn đang tìm kiếm loại hồ sơ nào? Kai: Chúng tôi ưu tiên các ứng viên có kinh nghiệm tại các công ty lớn như ByteDance và Meituan. ByteDance có văn hóa tổ chức năng động, nhịp độ nhanh, coi trọng người trẻ. Những người được đào tạo tại ByteDance có phương pháp luận và kỹ năng vững chắc, và họ có thể mang những kinh nghiệm thành công của mình đến với nhóm của chúng tôi để hội nhập và học hỏi. Chúng tôi muốn những người có kinh nghiệm trong các lần lặp lại hiệu suất cao, nhịp độ nhanh tại các công ty lớn của Trung Quốc. Chúng tôi đã vượt qua giai đoạn khởi nghiệp của sinh viên và không cần phải tuyển dụng những người hoàn toàn mới vào nghề nữa. Chúng tôi cần những cá nhân có nhiều kinh nghiệm hơn, nhưng không phải là những người kỳ cựu trong ngành. Những người kỳ cựu trong ngành có thể có trách nhiệm với gia đình và không thể có động lực như vậy. Vì vậy, một người ở giữa - trẻ và có động lực - là lý tưởng. Chúng tôi sẵn sàng cung cấp các quyền chọn cổ phiếu đáng kể cho những tài năng hàng đầu. Mặc dù chúng tôi đã huy động được 11 triệu đô la, tại sao chúng tôi lại không thuê các kỹ sư ở Mỹ? Bởi vì chúng tôi tin rằng năng lực phát triển sản phẩm và kỹ thuật của Trung Quốc thực sự vượt trội. Làn sóng này gần như chắc chắn sẽ chứng kiến các nhóm do Trung Quốc điều hành tạo ra những sản phẩm tuyệt vời, hứa hẹn thành công trên trường quốc tế. Nhiều ứng dụng AI hiện đang được người Trung Quốc phát triển; năng lực kỹ thuật của Trung Quốc thực sự ấn tượng. Đây cũng là lợi thế của chúng tôi; chúng tôi cần tận dụng thế mạnh của cả Trung Quốc và Mỹ.
Người sáng lập Park: Xu hướng khởi nghiệp của sinh viên đại học đặc biệt rõ ràng, đặc biệt là ở Thung lũng Silicon. Bạn đang quan sát thấy tình hình như thế nào?
Kai:Hãy nhìn vào thực tế này: lấy các công ty có định giá trong vòng gọi vốn này làm ví dụ: Mercor, công ty tập trung vào tuyển dụng AI, đã hoàn thành vòng gọi vốn mới trị giá hơn 300 triệu đô la, và định giá của công ty đã lên tới hàng chục tỷ đô la; trong khi định giá của Cursor đã được dự đoán trước là 10 tỷ đô la. Ngoài ra còn có các công ty như GPTZero và Pika. Tất cả đều là các công ty khởi nghiệp của sinh viên đại học, đặc biệt là khi những người sáng lập Cursor và Mercor đều bỏ học.
Làn sóng doanh nhân trẻ này có một điểm chung: cạnh tranh rất khác biệt. Họ tập trung vào việc làm những việc trong những lĩnh vực cực kỳ hẹp, chứ không làm bất cứ điều gì chung chung. Ví dụ, Mercor, tập trung vào tuyển dụng AI, ban đầu chỉ tuyển dụng lập trình viên Ấn Độ.
Điểm thứ hai là môi trường.
Toàn bộ môi trường vốn và sự đổi mới cơ bản ở Thung lũng Silicon, chẳng hạn như Stanford, Y Combinator và quỹ của Peter Thiel, hỗ trợ tinh thần khởi nghiệp của sinh viên đại học ngay từ giai đoạn đầu, bất kể ý tưởng của bạn đã được phát triển đầy đủ hay chưa, và họ sẵn sàng hỗ trợ bạn cũng như cung cấp một mạng lưới kết nối vững chắc. Thứ ba, tôi nghĩ đó là phẩm chất của những sinh viên đại học này. Dù là chúng tôi hay những sinh viên đại học đến từ Thung lũng Silicon, tất cả họ đều sở hữu tinh thần phiêu lưu rất dũng cảm và khả năng học tập cực kỳ mạnh mẽ. Nhiều sinh viên ở Trung Quốc có thể không sở hữu tinh thần phiêu lưu này. Bởi vì ở Thung lũng Silicon, có rất nhiều tấm gương thành công của những người bạn xung quanh bạn truyền cảm hứng cho bạn, và môi trường vốn sẵn sàng tin tưởng vào những người trẻ tuổi. Đối với tôi, tôi cũng đã so sánh chi phí và lợi ích vào thời điểm đó. Nếu tôi chọn học xong đại học rồi đi tìm việc làm, tôi có thể không trả được học phí cho gia đình và tôi có thể không có được khoản thu nhập đáng kể. Nhưng nếu tôi chọn khởi nghiệp, tôi có thể học như điên khi còn trẻ, và cuộc sống của tôi sẽ có vô số khả năng. Tôi đã muốn tạo ra một công ty tuyệt vời từ khi còn nhỏ. Nhà sáng lập Park: Tại sao thế hệ sinh viên đại học ngày nay có thể xây dựng các công ty trị giá hàng tỷ đô la, trong khi trước đây, bán được hàng chục triệu đô la được coi là một thành tựu lớn? Có phải là sự bùng nổ AI hay yếu tố bong bóng liên quan không? Kai: Tôi không nghĩ đó hoàn toàn là bong bóng. Cursor có doanh thu thực tế là 450 triệu đô la, điều này rất đáng tin cậy. Đằng sau điều này là phương pháp luận quan trọng và hiểu biết về nhận thức của thế hệ các nhóm trẻ này. Hãy nhìn vào các nhóm này, nền tảng của họ đều khá xuất sắc và họ có khả năng học hỏi rất tốt. Ban đầu, Cursor dựa vào các lập trình viên là sinh viên đại học xung quanh họ, những người có sự chấp nhận cao về AI và cung cấp phản hồi mạnh mẽ. Bản thân người sáng lập cũng là một kỹ sư tài năng, hiểu sâu sắc người dùng và có khả năng lặp lại kỹ thuật mạnh mẽ. Trong những ngày đầu, chỉ có bốn người đưa sản phẩm vào hoạt động. Sau khi họ lặp lại sản phẩm một cách tốt đẹp, họ đã xây dựng được danh tiếng tốt trong lòng người dùng, tạo ra doanh thu và các nhà đầu tư, lo sợ rằng họ có thể bỏ lỡ một Mark Zuckerberg tiếp theo, đã đổ thêm vốn vào.
Điều kiện cơ bản nhất là nhiều công nghệ trong làn sóng AI này còn mới mẻ, và những người trẻ học hỏi nhanh, thực dụng, đáng tin cậy và táo bạo. Do đó, họ có sự hiểu biết đặc biệt về người dùng và tốc độ lặp lại cực kỳ nhanh để đánh bại các sản phẩm truyền thống. Ví dụ, trước Cursor, GitHub Copilot khá tốt, nhưng tại sao nó không đánh bại Cursor? Đó là vì trải nghiệm người dùng và tốc độ thực thi. Nhà sáng lập Park: Có thể nói rằng vì AI là một công nghệ mới, nhiều nhận thức về sản phẩm cũng cần được nhìn nhận từ một góc độ mới? Kai: Đúng vậy, thế hệ doanh nhân trẻ có những hiểu biết sâu sắc hơn và gần gũi với người dùng hơn so với thế hệ trước. Người dùng AI chính thống hiện nay chủ yếu là Thế hệ Z, và tốc độ lặp lại và khả năng chịu đựng khi học hỏi và phản hồi của họ nhanh hơn so với thế hệ doanh nhân trước. Do đó, tốc độ lặp lại nhận thức là cốt lõi. Trong kỷ nguyên internet di động, các lần lặp lại công nghệ được đo bằng năm hoặc quý, nhưng trong kỷ nguyên AI, chúng có thể được đo bằng ngày. Là một nhà sáng lập, bạn phải học hỏi nhanh chóng, và những người trẻ tuổi có nhiều khả năng thức khuya hơn và có nhiều động lực hơn. Founder Park: Một số phương tiện truyền thông đưa tin rằng nhiều nhà sáng lập ở Thung lũng Silicon đã bắt đầu làm việc theo mô hình 996 (9 giờ sáng - 9 giờ tối, 6 ngày một tuần). Bạn nghĩ gì về điều đó? Kai: Một số người bạn doanh nhân da trắng của tôi đã huy động được rất nhiều tiền và cũng đang làm việc theo mô hình 996. Họ, giống như chúng tôi, thuê một ngôi nhà lớn nơi mọi người cùng sống và làm việc. Tôi nghĩ rằng 996 là một nhu cầu về môi trường hơn. Thung lũng Silicon bây giờ giống như một cơn sốt vàng; không ai muốn tụt hậu, vì vậy đối thủ cạnh tranh duy nhất là tốc độ lặp lại sản phẩm, đòi hỏi phải thức khuya để lặp lại nhanh chóng. Đó là một môi trường buộc mọi người phải làm như vậy. Founder Park: Xu hướng lựa chọn hướng kinh doanh của những sinh viên khởi nghiệp đại học này ở Thung lũng Silicon là gì? Kai: Tôi nghĩ rằng có một xu hướng, cho dù đó là chúng tôi trong lĩnh vực giáo dục hay các lĩnh vực khác, là khởi nghiệp trong vùng an toàn của mình. Vùng an toàn đề cập đến việc có hiểu biết sâu sắc về lĩnh vực và người dùng của nó. Người sáng lập Cursor có hiểu biết rất tốt về lập trình và chúng tôi bắt đầu trong lĩnh vực giáo dục vì chúng tôi hiểu rõ đối tượng mục tiêu. Giới trẻ ngày nay có xu hướng khởi nghiệp trong vùng an toàn hiện có của mình, thay vì vội vàng nhảy vào những lĩnh vực xa lạ. Nhờ vậy, phản hồi từ người dùng mà bạn nhận được sẽ nhanh chóng và chính xác hơn. Vấn đề tích lũy kiến thức cũng nằm ở đó. Đã làm việc trong ngành giáo dục ba lần, hiểu biết của tôi ngày càng được nâng cao. Những sinh viên đại học này ít có xu hướng làm những việc họ chưa từng làm trước đây; họ luôn suy nghĩ về cách làm tốt hơn. Họ sở hữu một thế hệ tư duy mới, liên tục lặp lại trong vòng tròn nhận thức của chính mình và dám tạo ra cơ hội.Một điểm nữa là tinh thần dám nghĩ dám làm, không dễ dàng để sự tiêu cực của người khác định hình mình, với thái độ "Tôi không quan tâm bạn nghĩ gì về tôi", rất tự tin. Đằng sau điều này là một nền văn hóa "thử nghiệm tốc độ cao". Tôi biết sản phẩm của mình chưa sẵn sàng, nhưng tôi không quan tâm; tôi ra mắt nhanh chóng, lặp lại nhanh chóng và nhận được phản hồi nhanh chóng. Nhà sáng lập Park: Xu hướng này bắt đầu từ khi nào? Kai: Tôi nghĩ đó là thành công dựa trên sự đồng thuận. Khi mọi người thấy các dự án như GPTZero phát triển từ phòng ký túc xá, lặp lại liên tục, rồi nhận được hỗ trợ vốn và sự công nhận của người dùng, có rất nhiều trường hợp thành công như vậy về thử nghiệm và sai sót nhanh chóng, tăng trưởng nhanh chóng, và sự đồng thuận được hình thành. Tóm lại, "Hoàn thành tốt hơn hoàn hảo", sự hoàn thiện quan trọng hơn sự hoàn hảo. Và mọi người không quá lo lắng về cạnh tranh. Nhiều nhà sáng lập ở Thung lũng Silicon sẵn sàng chia sẻ ý tưởng sản phẩm của họ, không sợ bị sao chép; họ chỉ muốn lặp lại nhanh chóng. Tôi nghĩ làn sóng người trẻ này cũng có khả năng kể chuyện tuyệt vời. Câu chuyện này không phải là những lời sáo rỗng, mà đúng hơn là dựa trên thực tế và sự thật, kết hợp với tầm nhìn riêng của họ về tương lai. Nhà sáng lập Park: Trước tiên, hãy tiếp thị bản thân. Kai: Đúng vậy. Tôi nghĩ rằng khái niệm cơ bản là tinh thần phiêu lưu và sự tự tin tột độ. Được thúc đẩy bởi điều này, họ liên tục và dũng cảm thử nghiệm và thất bại, không sợ nói sai điều gì. Họ mạnh dạn thể hiện ý tưởng sản phẩm của mình, mạnh dạn thực hiện chúng, và nếu họ mắc lỗi, họ luôn có thể sửa chữa. Văn hóa không ngại thử nghiệm và thất bại này đã góp phần vào làn sóng nhiệt tình khởi nghiệp và thành công hiện nay trong giới sinh viên đại học. Các nhà đầu tư mạo hiểm ở Mỹ cũng xem xét các dự án của sinh viên đại học; Y Combinator thường xuyên đầu tư vào một số dự án của sinh viên đại học mỗi vòng. Gây quỹ là điều cuối cùng VideoTutor cần lo lắng lúc này. Nhà sáng lập Park: Nếu bạn có thể quay lại thời điểm mới thành lập VideoTutor, bạn sẽ đưa ra lời khuyên gì cho bản thân? Bạn có thể làm tốt hơn điều gì? Kai: Tôi nghĩ tốc độ nên nhanh hơn. Ngoài ra, còn có thành phần đội ngũ. Đội ngũ VideoTutor đã trải qua nhiều vòng tinh chỉnh. Nếu biết sớm hơn, tôi đã nên tập hợp một đội ngũ dựa trên các kỹ năng cần thiết cho sản phẩm. Tôi nghĩ rằng cuối cùng, năng lực tổ chức là yếu tố then chốt đối với các công ty khởi nghiệp. Tôi sẽ dành nhiều thời gian hơn cho các kỹ năng tổ chức: tuyển chọn, xác định và sử dụng nhân sự hiệu quả.Đội ngũ hiện tại phù hợp để phát triển từ con số 0 lên 1, nhưng để VideoTutor lớn mạnh hơn, chúng tôi vẫn cần thêm những người giàu kinh nghiệm, mang đến cho đội ngũ những kinh nghiệm và năng lực tuyệt vời, giúp toàn đội cùng nhau phát triển.
Nhà sáng lập Park: Anh nghĩ VideoTutor có thể gặp phải những thách thức nào về sản phẩm hoặc kỹ thuật trong sáu tháng tới?
Kai:Tôi nghĩ một trong số đó là kết xuất. Để đạt được độ trễ bằng không thực sự, chúng tôi vẫn cần những đột phá về mặt kỹ thuật. Điểm thứ hai là tăng trưởng, mà tôi nghĩ là thị hiếu của sản phẩm. Điều này bao gồm nhiều yếu tố, chẳng hạn như liệu giao diện người dùng (UI) và thiết kế tương tác có mượt mà và hoàn hảo hay không, liệu tương tác chức năng có lỗi hay không, liệu bố cục hình ảnh có đẹp mắt hay không, v.v. Tất cả đều là những thách thức đối với chúng tôi.
James:Tôi nghĩ ban đầu chúng tôi định vị VideoTutor là một công cụ giảng dạy và hướng dẫn trực quan cho tất cả các môn học, nhưng sau đó chúng tôi đã trở nên rất theo chiều dọc, chỉ tập trung vào lĩnh vực toán học, vì đó là lĩnh vực chúng tôi giỏi nhất. Công cụ kết xuất toán học của chúng tôi là chuyên nghiệp nhất.
Bước đột phá quan trọng tiếp theo có thể sẽ là mở rộng theo chiều ngang. Ví dụ, làm thế nào để đưa những lợi thế của hình ảnh hóa vào các tình huống liên quan đến nhân văn? Ví dụ, giải thích câu tục ngữ "Cuốc ruộng buổi trưa, mồ hôi nhỏ giọt xuống đất". Đây là một điểm chúng tôi cần xem xét về mặt kỹ thuật. Founder Park: Liệu lý lịch của người sáng lập có gây ra vấn đề gì trong quá trình mở rộng sau này không? Kai: Không hẳn. Nhiều nhà đầu tư mạo hiểm lớn, như a16z, đã tiếp cận chúng tôi. Họ không đầu tư quá sớm, mà đầu tư khi nhóm đã có dấu hiệu thành công, để họ biết khoản đầu tư của mình sẽ không thất bại. Chúng tôi duy trì mối quan hệ rất tốt với nhiều quỹ đầu tư mạo hiểm lớn. Việc gây quỹ là mối quan tâm ít nhất của VideoTutor; mối quan tâm lớn nhất là hệ sinh thái người dùng và chính sản phẩm.
